地球上所有双侧对称动物的大脑被分为左右半球。半球的解剖学和功能具有很大程度的重叠,但它们专门具有不同的属性。据信左半球专门研究特殊性和常规,右边是一般性和新颖性。在这项研究中,我们提出了一个人工神经网络,该网络模仿具有不同训练目标的两个卷积神经网络,并在图像分类任务上对其进行测试。双边体系结构的表现优于类似代表能力的体系结构,这些体系结构不利用差异化专业化。它证明了双边主义的功效,并构成了一个新原则,可以将其纳入其他计算神经科学模型中,并在设计新的ML系统时用作归纳偏见。对模型的分析可以帮助我们理解人脑。
translated by 谷歌翻译
The success of Deep Generative Models at high-resolution image generation has led to their extensive utilization for style editing of real images. Most existing methods work on the principle of inverting real images onto their latent space, followed by determining controllable directions. Both inversion of real images and determination of controllable latent directions are computationally expensive operations. Moreover, the determination of controllable latent directions requires additional human supervision. This work aims to explore the efficacy of mask-guided feature modulation in the latent space of a Deep Generative Model as a solution to these bottlenecks. To this end, we present the SemanticStyle Autoencoder (SSAE), a deep Generative Autoencoder model that leverages semantic mask-guided latent space manipulation for highly localized photorealistic style editing of real images. We present qualitative and quantitative results for the same and their analysis. This work shall serve as a guiding primer for future work.
translated by 谷歌翻译
随着越来越多的增强和虚拟现实应用程序的出现,旨在对人脸的图像进行有意义和控制的样式编辑,因此解析面部图像的任务的动力以生成准确而细粒度的语义细分映射超出以前。很少有解决此问题的最新技术(SOTA)方法通过将先验的面部结构或其他面部属性(例如表达和姿势)纳入其深层分类器架构中来做到这一点。我们在这项工作中的努力是消除SOTA多级面部分割模型所需的先验和复杂的预处理操作,该操作通过将此操作重新构架为在面部语义语义区域(ROIS)的下游任务后,作为下游任务后的下游任务(ROIS)。在生成自动编码器模型的潜在空间中。我们在Celebamask-HQ和Helen数据集上介绍了模型性能的结果。与其他SOTA作品相比,我们模型的编码潜在空间在语义ROI方面的分离明显更高。此外,它在公开可用的SOTA方面,可以实现13 \%的推理率和可比的精度,用于面部图像的语义分割的下游任务。
translated by 谷歌翻译
归一化流程模型在简单的基本分布上运行的族裔转换方面,复杂的目标分布。因此,它们可以对许多重要的统计量,尤其是可能性和样本进行可触及的计算。尽管具有这些吸引人的属性,但更复杂的推理任务的计算,例如复杂区域(例如,多层)上的累积分布函数(CDF)仍然具有挑战性。使用蒙特卡洛技术的传统CDF近似值是公正的,但具有无界方差和较低的样品效率。取而代之的是,我们建立在标准化流的差异特性的基础上,并利用差异定理在目标空间中的封闭区域估计CDF,这是由横向范围的流量横向空间的\ emph {boundare}而言。我们描述了该估计值的确定性和随机实例:而确定性变体迭代通过策略性地细化边界来改善估计值,而随机变体则提供了无偏的估计值。我们对流行流架构和UCI基准数据集的实验表明,与传统估计器相比,样本效率的提高显着提高。
translated by 谷歌翻译
图像恢复是从降级版本中恢复清洁图像的任务。在大多数情况下,劣化是空间变化的,并且它需要恢复网络到本地化并恢复受影响的区域。在本文中,我们提出了一种适用于处理受实际发生的伪像(如模糊,雨杆)的图像中的图像中降解的图像特异性和空间不同性质的新方法。与直接学习劣化和清洁图像之间的映射直接学习映射的现有方法不同,我们将恢复任务分解为劣化定位和降级的区域引导恢复的两个阶段。我们的前提是使用劣化掩模预测的辅助任务来指导恢复过程。我们展示了对此辅助任务培训的模型包含重要地区知识,可以利用使用细心知识蒸馏技术来指导恢复网络的培训。此外,我们提出了掩模引导的卷积和全局上下文聚合模块,专注于恢复劣化区域。通过实现强大基线的显着改善,证明了所提出的方法的有效性。
translated by 谷歌翻译
通过最近使用深神经网络,图像纯洁方法显示出显着的改进。然而,许多这些技术经常产生与周围区域不一致的扭曲的结构或模糊纹理。该问题植根于编码器层的无效,在建立缺失地区的完全和忠实的嵌入时。为了解决这个问题,两阶段方法部署了两个单独的网络,用于对染色图像的粗略和精细估计。一些方法利用手工制作的特征,如边缘或轮廓,以指导重建过程。由于多个发电机网络,手工特征有限,并且在地面真理中存在的信息的次优,这些方法遭受巨大的计算开销。通过这些观察结果,我们提出了一种基于蒸馏的方法,用于以自适应方式为编码器层提供直接特征级监督。我们部署交叉和自蒸馏技术,并讨论了对编码器中专用完成块的需要,以实现蒸馏靶。我们对多个数据集进行广泛的评估以验证我们的方法。
translated by 谷歌翻译
本文解决了视频解训的挑战性问题。现有的大多数作品依赖于用于时间信息融合的隐式或显式对齐,其由于错误的对准而增加计算成本或导致次优的性能。在这项研究中,我们提出了一个分解的时空关注,以在不考虑的情况下完全使用可用信息的空间和时间来执行非本地操作。与现有融合技术相比,它显示出优异的性能,同时高效。多个数据集的广泛实验证明了我们方法的优越性。
translated by 谷歌翻译
本文铲球动态场景去模糊的问题。虽然终端到终端的全卷积的设计最近提出的国家的最先进的非匀速运动去模糊,他们的表现复杂的权衡仍是次优的。现有的方法在普通卷积层,内核尺寸的数量,来与模型的大小和推理速度的增加的负担,一个简单的增量实现大的感受野。在这项工作中,我们提出了一个有效的像素适应并配内和跨不同的图像处理大量的模糊变化周到的设计。我们还提出了一种有效的内容感知全局 - 局部滤波模块通过不仅考虑像素的全局依赖关系还动态使用相邻像素是显著提高性能。我们使用上述模块构成的补丁分层架构周到隐式地发现存在于所述输入图像并依次模糊的空间变化进行的中间特征局部和全局调制。与现有技术的上去模糊基准广泛的定性和定量的比较表明了该网络的优越性。
translated by 谷歌翻译
在实践中,图像可以包含不同颜色通道的不同噪声,这不受现有的超分辨率方法确认。在本文中,我们通过关注颜色通道来提出超声噪音图像。噪声统计从输入的低分辨率图像盲目地估计,并且用于以数据成本为不同颜色信道分配不同权重。通过与自适应权重相关联的核规范最小化,通过核标准最小化强制强制执行视觉数据的隐式低秩结构,这将作为正则化术语添加到成本中。另外,通过涉及投影到PCA的另一个正则化术语将图像的多尺度细节添加到模型中,该术语是使用在输入图像的不同尺度上提取的类似斑块构造的。结果展示了在实际方案中的方法的超声解决能力。
translated by 谷歌翻译
在文献中,粗细或缩放 - 重复性方法是从其低分辨率版本逐步恢复清洁图像,已成功用于单图像去孔。然而,现有方法的主要缺点是需要配对数据;即夏普尔图像对同一场景,这是一种复杂和繁琐的采集程序。此外,由于对损耗功能的强烈监督,此类网络的预先训练模型对训练期间的模糊强烈偏向,并且在推理时间内的新模糊内核面对时倾向于提供子最佳性能。为了解决上述问题,我们使用秤 - 自适应注意模块(Saam)提出了无监督的域特定的去孔。我们的网络不需要监督对进行训练,并且防夹机制主要由逆势丢失引导,从而使我们的网络适用于模糊功能的分布。给定模糊的输入图像,在训练期间我们的模型中使用相同图像的不同分辨率,Saam允许在整个分辨率上有效的信息流。对于特定规模的网络培训,Saam作为当前规模的函数参加较低的尺度功能。不同的消融研究表明,我们的粗细机制优于端到端无监督的模型,而Saam能够与文学中使用的注意力相比更好地参加。定性和定量比较(在无参考度量标准)表明我们的方法优于现有无监督的方法。
translated by 谷歌翻译